#barreras estadísticas

¿Cuándo la supervisión de trayectoria permite RL offline eficiente?

Descubre cuándo la supervisión a nivel de trayectoria permite un aprendizaje por refuerzo offline eficiente, con el algoritmo OPAC y sus límites teóricos.

2026-06-18 · 2 min